Etude sémantique des mots-clés et des marqueurs lexicaux stables dans un corpus technique (Semantic Analysis of Keywords and Stable Lexical Markers in a Technical Corpus) [in French]
نویسندگان
چکیده
RESUME ____________________________________________________________________________________________________________ Cet article présente les résultats d’une analyse sémantique quantitative des unités lexicales spécifiques dans un corpus technique, relevant du domaine des machines-outils pour l’usinage des métaux. L’étude vise à vérifier si et dans quelle mesure les mots-clés du corpus technique sont monosémiques. A cet effet, nous procédons à une analyse statistique de régression simple, qui permet d’étudier la corrélation entre le rang de spécificité des mots-clés et leur rang de monosémie, mais qui soulève des problèmes statistiques et méthodologiques, notamment un biais de fréquence. Pour y remédier, nous adoptons une approche alternative pour le repérage des unités lexicales spécifiques, à savoir l’analyse des marqueurs lexicaux stables ou Stable Lexical Marker Analysis (SLMA). Nous discutons les résultats quantitatifs et statistiques de cette approche dans la perspective de la corrélation entre le rang de spécificité et le rang de monosémie.
منابع مشابه
Validation d'une méthodologie pour l'étude des marqueurs de la segmentation dans un grand corpus de textes
This research aims at validating a methodology for the study of segmentation markers in large corpora. Two indices signalling a thematic break in a text are proposed. The first is based on the presence of a paragraph mark and employs the odds ratio to identify the best markers. The second takes into account lexical cohesion between sentences via an index resulting from latent semantic analysis....
متن کاملMarqueurs de la relation cause-effet : stabilité et variation dans des corpus de nature différente
Résumé : Les marqueurs lexicaux figurent parmi les indicateurs les plus intéressants pour identifier et classer finement des relations terminologiques. Cependant, l’exploitation des marqueurs pour repérer automatiquement ou semi-automatiquement les relations dans des corpus, notamment des corpus associés à des domaines ou à des genres textuels différents, peut soulever des problèmes. Le présent...
متن کاملKWSim: Concepts Similarity Measure
The comparison of manually annotated medical images can be done using the comparison of keywords in a lexical way or using the existing medical thesauri to calculate semantic similarity. In this paper, first we introduce the KWSim measure, a fully automated technique of measuring semantic similarity by mapping concepts(keywords) to different medical thesauri and examining the “is-a” relation ty...
متن کاملIntegrating lexicographic examples in a lexical network (Intégration relationnelle des exemples lexicographiques dans un réseau lexical) [in French]
This paper presents a set of lexicographic examples which is being developped along the French Lexical Network. The possibility of using this set as an annotated corpus for research on automatic Word Sense Disambiguation is examined. Mots-clés : Réseau Lexical du Français, exemples lexicographiques, corpus annoté sémantiquement.
متن کاملModeling Semantic Memory
Computational models of semantics infer semantic structure from the analysis of large linguistic corpora. Two approaches are described here. In each case the data consist of a document-by-word matrix, counting the number of times a word was used in a document. Latent Semantic Analysis uses dimension reduction to construct a high-dimensional semantic space from such a matrix. Information in sema...
متن کامل